\section{若尔当 (Jordan) 标准形介绍}

\begin{frame}{本节概要}
  \begin{enumerate}
    \item 一般而言，空间分解为根子空间的直和即便可行 (如复数域上总可行)，但是依旧很粗。
      除了把空间分解为根子空间的直和，
      还可以进一步试着把每个根子空间细分为一些不变子空间的直和。
      我们将把每个根子空间再分解为一些所谓的循环子空间 (不必管这具体指什么) 的直和，
      从而把线性变换的矩阵相似到一个Jordan形矩阵，称为该线性变换和该矩阵的Jordan标准形。
\item Jordan标准形非常便于计算。例如，Jordan 形矩阵的幂
  容易求 (回想下矩阵
    \[
      \begin{pmatrix}
      0 &  \\
      1& \ddots & \\
      &\ddots & \ddots & \\
      & & 1& 0
  \end{pmatrix}
\]
的幂何样)，我们可以借助 Jordan 标准形来算方阵的幂。
\item 我们会证明Jordan标准形的存在性，通过归结为证明幂零的线性变换有Jordan标准形。
  我们不证明唯一性 (唯一性可参见附录~\ref{008}).
  另外，一般而言，从我们目前已有的手段来求出Jordan标准形很费劲。
  下一章中，我们会建立新的理论，可以避开找合适的基或相似变换所需的可逆矩阵而得到Jordan标准形 
  (很多时候我们只用到Jordan标准形)，同时证明Jordan标准形的唯一性。
  \end{enumerate}
\end{frame}


  \begin{frame}{标准形}

同一个线性变换在不同基下的矩阵是相似的，我们期望通过基的变换使它的矩阵化为简单的形状。 对角矩阵具有简单形状， 但并不是每个线性变换都有一组基使它在这组基下矩阵为对角形。那么一般线性变换通过选择基能将它的矩阵变为什么样的简单形状的矩阵？ 我们将这种矩阵称为线性变换下矩阵的标准形。 这个问题也等价于： 任一方阵经过相似变换能变成什么样的标准形。我们会学习到几种标准形：Jordan标准形、有理标准形。这节我们学习Jordan标准形，这通常只在复数域这样的代数闭域上才有（更一般地，如果线性变换的特征多项式能分解为线性因子的乘积时也有；另一方面，一般的域上还可以谈推广的Jordan标准形）。

这一节我们限制在复数域中讨论。
\end{frame}

\begin{frame}{Jordan矩阵}

\begin{definition}
形如
\[
   J\left(\lambda_{0}, k\right)=\begin{pmatrix}
      \lambda_0 \\
      1 & \lambda_0 \\
        & 1 & \ddots \\
        & & \ddots & \ddots \\
        & & & 1 & \lambda_0
\end{pmatrix}_{k \times k}
\]
的矩阵称为\emph{Jordan块}（若尔当块） (Jordan block)， 其中 $\lambda_{0}\in \bC$. 
由若干个若尔当块组成的准对角矩阵
\[
  J(\lambda_1,k_1)\oplus J(\lambda_2,k_2)\oplus \cdots \oplus J(\lambda_s, k_s) =\begin{pmatrix}
     J\left(\lambda_{1}, k_{1}\right) & & & \\
  & J\left(\lambda_{2}, k_{2}\right) & & \\
& & \ddots & \\
& & & J\left(\lambda_{s}, k_{s}\right)
\end{pmatrix}
\]
称为\emph{Jordan形矩阵}（若尔当形矩阵） (Jordan matrix)， 其中 $\lambda_{1}, \cdots, \lambda_s\in \bC$（这些$\lambda_i$不必互异）。
\end{definition}
\end{frame}


\begin{frame}
\begin{example}
  \[
    \begin{aligned}
       J(1,3) & =\begin{pmatrix}
        1 & 0 & 0 \\
      1 & 1 & 0 \\
    0 & 1 & 1
\end{pmatrix}, \\
\begin{pmatrix}
   J(1,3) & \\
&  J(4,2)
\end{pmatrix} & =\begin{pmatrix}
  1 & 0 & 0 & 0 & 0 \\
1 & 1 & 0 & 0 & 0 \\
0 & 1 & 1 & 0 & 0 \\
0 & 0 & 0 & 4 & 0 \\
0 & 0 & 0 & 1 & 4
\end{pmatrix}
\end{aligned}
\]
都是若尔当形矩阵。
\end{example}

~

有些地方定义的Jordan形矩阵是上三角的，是我们给出的Jordan形矩阵转置后的样子。没有本质的差异，理论上是等价的。
比如，我们下面的主结果是复矩阵可相似到一个下三角形式的Jordan形矩阵，即给定复矩阵$A\in \bC^{n\times n}$, 存在$T\in \GL_n(\bC)$使得$T^{-1}AT$为下三角形式的Jordan形矩阵；
把此结论应用到$A^{\rT}$,
可知存在$Q\in \GL_n(\bC)$使得$Q^{-1}A^{\rT}Q$为下三角形式的Jordan形矩阵，
再转置可知$Q^{\rT} A \left( Q^{\rT} \right)^{-1}$为上三角形式的Jordan形矩阵，即$A$可以相似于一个上三角形式的Jordan形矩阵。%
\footnote{也可从线性变换的角度看，把每个Jordan链反序后拼成新的基。}
\end{frame}


\begin{frame}{Jordan标准形的存在性}

关于若尔当形矩阵的主要结果是

\begin{theorem}\label{0EE}
  设 $\mathscr{A}$ 是复数域上 $n$ 维线性空间 $V$ 的一个线性变换， 则 $V$ 中一定存在一组基， $\mathscr{A}$ 在这组基下的矩阵是若尔当形矩阵，称为 $\mathscr{A}$ 的\emph{若尔当标准形} (Jordan form)。
\end{theorem}

上面的结论用矩阵语言表达， 就是
\begin{theorem}
  每个$ A\in \bC^{n\times n}$ 总与一个若尔当形矩阵相似。
  这个若尔当形矩阵相差个若尔当块的排序由 $ A$ 唯一决定，称为 $ A$ 的\emph{若尔当标准形}。
\end{theorem}

这里不证明上述唯一性的结果， 我们将在下一章利用 $\lambda$-矩阵的性质对矩阵相似作更全面的讨论。 
另外， 课本在附录四中又给出另一种处理， 
是用线性空间、线性变换、空间分解及基底的语言表述的，称为矩阵相似标准形的几何理论。

因为若尔当形矩阵是三角矩阵，故 $\mathscr{A}$ (或 $ A$) 的若尔当标准形中
主对角线上的元素就是它的特征多项式的全部根 (重根按重数计算)。

线性变换和矩阵的若尔当标准形问题是线性代数中很重要的课题。
若尔当标准形是在复数域中讨论的， 它又是下三角形矩阵，有很多应用。
一个简单的应用：Jordan形矩阵的幂容易求，我们可以借助Jordan标准形来算方阵的幂。%
\footnote{话虽如此，一般而言，具体写出使得$Q^{-1}AQ$为Jordan形矩阵的$Q$很费劲。
当然，很多时候我们只用到 Jordan标准形，而不必知道$Q$具体何样。}

\end{frame}


\begin{frame}
  \begin{example}
    在第3节中我们计算过$A=\begin{pmatrix}
      2 & 1 \\
    -1 & 0
  \end{pmatrix}$的幂。
  考虑线性变换
  \[
    \sA\colon P^{(2)}\rightarrow P^{(2)}, \quad X\mapsto AX.
  \]
  我们当时选取了一组$P^{(2)}$的基$\left( (1,-1)^{\rT}, (-1,2)^{\rT} \right)$使得$\sA$在该基下的矩阵为$\begin{pmatrix}
    1 & 1 \\ & 1
  \end{pmatrix}$. 
  我们来看看这是如何想到的。
  容易算得$A$的特征多项式为$(\lambda-1)^2$.
  这样$A$的Jordan标准型为$\begin{pmatrix}
    1 \\ & 1
  \end{pmatrix}$或$\begin{pmatrix}
    1 & 1 \\ & 1
  \end{pmatrix}$. 显然$\begin{pmatrix}
    1 \\ & 1
  \end{pmatrix}$不可能，只能是$A'=\begin{pmatrix}
    1 & 1 \\ & 1
  \end{pmatrix}$.
  现在我们来找$P^{(2)}$的一组基$(\alpha_1, \alpha_2)$使得$\sA$在该基下的矩阵为$A'$.
  这相当于
  \[\tag{$*$}
    A\begin{pmatrix}
      \alpha_1 & \alpha_2
    \end{pmatrix} = \begin{pmatrix}
      \alpha_1 & \alpha_2
    \end{pmatrix} \begin{pmatrix}
      1  & 1 \\ & 1
    \end{pmatrix}.
  \]
  因此$\alpha_1, \alpha_2$满足
  \[
    A\alpha_1 = \alpha_1, \quad A\alpha_2=\alpha_1+\alpha_2.
  \]
  因此$\alpha_1$是$A$的特征向量，可取为$(1,-1)^{\rT}$.
  $\alpha_2$满足$(A-E)\alpha_2= \alpha_1$;
  $\alpha_1$既已取定，$\alpha_2$可取为$(-1,2)^{\rT}$.
  一旦这样取了$\alpha_1, \alpha_2$, ($*$) 式就成立。这就是我们想要的。
  \end{example}
\end{frame}


\begin{frame}

  我们会在下一页把定理~\ref{0EE}~的证明归结到线性变换幂零这个特殊情形。

\begin{definition}
若线性空间 $V$ 上的线性变换 $\mathscr{B}$ 满足 $\mathscr{B}^{k}=0$, 对某个正整数$k$， 就称 $\mathscr{B}$ 为 $V$ 上的\emph{幂零} (nilpotent) 线性变换。
\end{definition}
\begin{lemma}\label{15E}
    对幂零线性变换 $\mathscr{B}$ (即$\sB^k=0$, 对某个正整数$k$), $V$ 中必有下列形式的一组元素作为基：
\[\tag{2}
  \begin{array}{cccc}
   \alpha_{1} &  \alpha_{2} & \cdots &  \alpha_{t} \\
\mathscr{B}  \alpha_{1} & \mathscr{B} \alpha_{2} & \cdots & \mathscr{B} \alpha_{t} \\
\vdots & \vdots & & \vdots \\
\mathscr{B}^{k_{1}-1} \alpha_{1} & \mathscr{B}^{k_{2}-1}  \alpha_{2} & \cdots & \mathscr{B}^{k_{t}-1} \alpha_{t} 
\end{array}
\]
其中每个$\alpha_i$满足$\sB^{k_i}\alpha_i=0$.
于是 $\mathscr{B}$ 在这组基（把 (2) 中每列横放，然后从左往右排成一行，得到一组基）下的矩阵为
\[\tag{3}
  \begin{pmatrix}
    J(0, k_1) \\
    & J(0, k_2) \\
    && \ddots\\
    &&& J(0, k_t)
  \end{pmatrix}.
\]
\end{lemma}

\end{frame}

\begin{frame}
  \begin{proof*}[定理~\ref{0EE}~的证明]
    我们断言幂零线性变换有形如(3)的Jordan标准形
    （即上述引理~\ref{15E}）。
下面的论述让我们把定理的证明归结到$\sA$幂零的情形。
设 $\mathscr{A}$ 的特征多项式为 
\[
  f(\lambda)=\left(\lambda-\lambda_{1}\right)^{r_{1}}\left(\lambda-\lambda_{2}\right)^{r_{2}} \cdots\left(\lambda-\lambda_{s}\right)^{r_{s}},
\]
其中$\lambda_{1}, \lambda_{2}, \cdots, \lambda_{s}$是 $f(\lambda)$ 的全部不同的根。 
我们知道 $V$ 可分解成 $\mathscr{A}$ 的根子空间的直和
\[
V=V_{1} \oplus V_{2} \oplus \cdots \oplus V_{s},
\]
其中 $V_{i}=\ker (\sA-\lambda_i \sE)^{r_i}$. 
我们如能证明每个 $V_{i}$ 有一组基使得 $\mathscr{A}|_{V_{i}}$ 在该基下矩阵$A_i$为若尔当形矩阵，
那么把每个 $V_{i}$ 的基合并为 $V$ 的基， $\mathscr{A}$ 在该基下的矩阵为$A_1\oplus \cdots\oplus A_s$, 仍是若尔当形，从而定理得证。
考虑$V_i$上的线性变换
$\sB_i=\left(\mathscr{A}-\lambda_{i} \mathscr{E} \right)|_{V_{i}}$. 我们有 $\mathscr{B}_i^{r_i}=0$. 
由断言可知存在 $V_{i}$ 的基使 $\mathscr{B}_i$ 的矩阵为形如 (3) 的若尔当形。 
于是 $\mathscr{A}|_{V_{i}}=\mathscr{B}_i+\lambda_{i} \mathscr{E}$ 在该基下的矩阵为形如 (3) 中矩阵与 $\lambda_{i} E$ 的和， 从而形如
\[
A_i=
  \begin{pmatrix}
    J(\lambda_i, k_{i1}) \\
    & J(\lambda_i, k_{i2}) \\
     && \ddots\\
     &&& J(\lambda_i, k_{it_i})
     \end{pmatrix},
   \]
   这也是若尔当形，如我们期望的。
\end{proof*}
\end{frame}



\begin{frame}
\begin{proof*}[引理~\ref{15E}~的证明]
  %容易发现{\verify} 使得$\sB$的矩阵为Jordan形矩阵(3)的基恰好形如(2)且满足条件$\sB^{k_i}\alpha_i=0$. 
  假设引理中断言的基存在 (特别地，还满足 $\sB^{k_i}\alpha_i=0$, 对 $1\leqslant i\leqslant t$).
  令$W_i$为(2)中第$i$列的那些向量生成的子空间。结合 $\sB^{k_i}\alpha_i=0$可知
  $W_i$为$\sB$-子空间。易知$\sB|_{W_i}$的矩阵为$J(0,k_i)$, 
  因此$\sB$在合并后得到的$V$的基下的矩阵为 $J(0, k_1)\oplus \cdots \oplus J(0, k_t)$. 
  (当然直接写就行，我们这样写只是为了再次强调分解空间与化简矩阵的联系。)

我们使用完全的数学归纳法对 $V$ 的维数 $n>0$ 归纳来证明引理中断言的基的存在性。 
%$n=1$, 这时 $V$ 有基 $ \alpha_{1}$, 且 $\mathscr{B}  \alpha_{1}=\lambda_{1}  \alpha_{1}$. 
%由 $\mathscr{B}^{k}  \alpha_{1}=$ $\lambda_{1}^{k}  \alpha_{1}=\symbf{0}$, 得 $\lambda_{1}=0$. 
%于是 $ \alpha_{1}$ （满足$\mathscr{B}  \alpha_{1}=\symbf{0}$） 是要求的基。
%现在考虑$\dim V=n>1$的情况。 
归纳假设是：线性空间维数小于 $n$ 时，引理的结论成立。
对满足引理条件的 $n$ 维线性空间 $V$, 考察不变子空间 $\mathscr{B} V$
(要归纳的话，自然地要找不变子空间，明显可用的也就$\ker \sB$和$\im \sB$; 
显然$\ker\sB$不可用，因为$\sB|_{\ker \sB}=0$)。
必有$\sB V\neq V$, 否则
\[
  V=\sB V=\sB^2 V=\cdots = \sB^k V=0,
\]
与$\dim V>0$矛盾了。这样$\dim \sB V< \dim V=n$.
若$\dim \sB V=0$ (如$\dim V=1$时正是如此), 即 $\sB=0$, 那么$V$的任一组基满足要求。
%这种情形也可包含于下面的讨论中，视作下面的讨论中 $\sB V=0$ (从而 $\sB V$的基是空集) 这一特殊情形。
否则，
将$\sB$看成$\sB V$ 上的线性变换，仍有 $\mathscr{B}^{k}=0$. 
由归纳假设， $\mathscr{B} V$ 上有基
\[\tag{4}
  \begin{array}{cccc}
   \varepsilon_{1} &  \varepsilon_{2} & \cdots &  \varepsilon_{t} \\
\mathscr{B}  \varepsilon_{1} & \mathscr{B} \varepsilon_{2} & \cdots & \mathscr{B} \varepsilon_{t} \\
\vdots & \vdots & & \vdots \\
\mathscr{B}^{k_{1}-1} \varepsilon_{1} & \mathscr{B}^{k_{2}-1}  \varepsilon_{2} & \cdots & \mathscr{B}^{k_{t}-1} \varepsilon_{t} 
\end{array}
\]
其中 $k_i$ 皆为正整数，$\varepsilon_i$满足$\sB^{k_i}\varepsilon_i=0$. 
\end{proof*}
\end{frame}

\begin{frame}
  \begin{proof*}[引理~\ref{15E}~的证明 (续)]

    由于 $\varepsilon_{1}, \varepsilon_{2}, \cdots, \varepsilon_{t}$ 皆属于 $\mathscr{B} V$, 存在 $ \alpha_{1},  \alpha_{2}, \cdots,  \alpha_{t} \in V$, 使得 $\sB \alpha_i = \varepsilon_i$. 
排出下列向量组：
\[\tag{5}
  \vcenter{\hbox{
\begin{tikzpicture}
    [ampersand replacement=\&, every node/.style={anchor=east}]
   \matrix (a) [matrix of math nodes] {
     \phantom{\sB} \& \alpha_1 \& \alpha_2 \& \cdots \& \alpha_t \&  \& \& \& \\ 
     \phantom{\sB} \& \sB \alpha_1  \& \sB \alpha_2 \& \cdots \& \sB \alpha_t \&  \& \& \& \\ 
    \& \sB^2 \alpha_1  \& \sB^2 \alpha_2 \& \cdots \& \sB^2 \alpha_t \& \& \& \& \\
    \& \vdots\phantom{\alpha} \& \vdots\phantom{\alpha}   \& \& \vdots\phantom{\alpha}  \& \& \& \& \\ 
    \& \sB^{k_1-1} \alpha_1  \& \sB^{k_2-1} \alpha_2 \& \cdots \& \sB^{k_t-1} \alpha_t \& \phantom{\sB} \& \& \& \\
     \& \sB^{k_1} \alpha_1  \& \sB^{k_2} \alpha_2 \& \cdots \& \sB^{k_t} \alpha_t \& \phantom{\sB}\& \alpha_{t+1} \& \cdots \&  \alpha_s \\
   };
   \draw [dashed] (a-1-1.north east) rectangle (a-5-6.south west);
   \draw (a-2-1.north west) rectangle ([xshift=-.8em]a-6-6.south east);
\end{tikzpicture}}}
\]
其中实线方框中的向量组正是 (4) 中的向量组，虚线方框中的向量组正是实线方框中各向量在 $\mathscr{B}$ 下的原像所成的向量组。
另外，
(5)中最后一行中的 $\mathscr{B}^{k_{1}}  \alpha_{1}, \cdots, \mathscr{B}^{k_{t}}  \alpha_{t}$ 是 $\ker \sB$ 中的向量，它们是 $\sB V$ 的基中的部分向量，故是线性无关的； 
将其扩充为 $\ker \sB$的一组基后得到(5) 的最后一行。
%$ \alpha_{t+1}, \cdots, \alpha_{s}$ 是取自于 $\ker \sB$ 中的向量，且它们被要求与 $\mathscr{B}^{k_1}  \alpha_{1}, \cdots, \mathscr{B}^{k_t}  \alpha_{i}$ 合起来构成 $\ker \sB$ 的一组基---上述向量组 (5) 的最后一行如此得到。
由推论~\ref{1A1}~可知虚线方框中的向量（作为$\im \sB$的一组基的一组原像）与最后一行的向量（作为$\ker \sB$的一组基）合起来就是 $V$ 的一组基， 
且符合引理中的额外要求：$1\leqslant i \leqslant t$时$\alpha_i$满足$\sB^{k_i+1}\alpha_i=\sB^{k_i}\varepsilon_i=0$; $t<i\leqslant s$时$\sB \alpha_i=0$.
归纳法就此完成。 
\end{proof*}
\end{frame}

\begin{frame}{循环子空间}
\begin{definition}
  令$V, \sA$如上。再令$\alpha\in V$. $\alpha$ 生成的\emph{循环子空间}指
  \[
    P[\sA]\alpha=\{f(\sA) \alpha \mid f\in P[\lambda]\}.
  \]
\end{definition}

\begin{observation*}
    $P[\sA]\alpha$是$\sA$-子空间。
    若$k$是最大的整数使得$(\alpha, \sA \alpha, \cdots, \sA^{k} \alpha)$线性无关，则$(\alpha, \cdots, \sA^k \alpha)$为$P[\sA]\alpha$的一组基。特别地，$\dim P[\sA]\alpha=k+1$, 且
      \[
        P[\sA]\alpha=\Span(\alpha, \cdots, \sA^k \alpha).
      \]
\end{observation*}

设$W$是$\sA$-子空间，在其基$(\alpha_1, \cdots, \alpha_l)$下对应于$\sA$的Jordan标准型中的一个Jordan块$J(\lambda_0, k)$.
那么
\[
  \sA \alpha_i = \lambda_0 \alpha_i + \alpha_{i+1} \,(i=1,\cdots,l-1),\quad 
  \sA \alpha_l= \lambda_0 \alpha_l.
\]
这样容易发现%$\alpha_l$是$\sA$的属于特征值$\lambda_0$的特征向量，且
$W$是$\alpha_1$生成的循环子空间，即$W=P[\sA]\alpha_1$;
$\alpha_1, \cdots, \alpha_l$也称为一条 \emph{Jordan链}。
所以从空间分解的角度看取一组基使得$\sA$的矩阵为Jordan形矩阵这件事，我们不仅
把空间分解为根子空间的直和，又进一步把每个根子空间细分为循环子空间的直和。
\end{frame}

\begin{frame}{小结}
  \begin{enumerate}
    \item 何谓Jordan形矩阵？
    \item Jordan标准形存在的条件是什么？
  \end{enumerate}
\end{frame}



